패러다임의 전환: 특정 작업 모델에서 대규모 언어 모델로

1

00:00

자연어 처리의 진화: 분산된 인공지능에서 기초 모델로

정의

분산된 인공지능: 시퀀스 레이블링이나 분류와 같은 개별 작업을 위한 특수 설계된 신경망 아키텍처로 구분되는 시대.
기초 모델: 모든 언어 문제를 생성형 텍스트-텍스트 시퀀스 $x \rightarrow y$로 간주하는 통합적이고 단일 구성의 트랜스포머 아키텍처.

핵심 개념

아키텍처 통합: 과거에는 자연어 처리가 맞춤형 파이프라인(개체명 인식에 사용하는 양방향 LSTM, 감성 분석에 사용하는 컨볼루션 신경망)을 필요로 했다. 대규모 언어 모델은 이러한 사각지대를 하나의 중심 구조로 압축하여, 동일한 가중치가 모든 작업에 활용된다.
통합 인터페이스: LLM은 특수한 "출력 헤드" (예: 3개 클래스 소프트맥스)를 자연어 인터페이스로 대체한다. 입력과 출력은 항상 문자열이며, 모델이 intent 보다는 형식.
지식 전달: 전통적인 모델은 각 작업에 대해 "백지 상태"였다. 대규모 언어 모델은 일반화 우선특정 작업이 이미 존재하는 강력한 언어 내부 표현의 단순 응용이라는 점을 우선시한다.

역사적 맥락

2018년 이전: 작업 격리가 서로 다른 손실 함수 $\mathcal{L}_{task}$를 가진 별도의 모델을 훈련해야 하는 요구를 초래했다.
현대 시대: "텍스트-텍스트" 패러다임은 하나의 모델(예: Llama-3)이 제로샷 또는 피셜샷 프롬프팅을 통해 작업을 전환할 수 있게 한다.

파이썬 구현 비교